草庐IT

php - UTF-8 和 HTML 实体

全部标签

ruby-on-rails - 如何使用 Nokogiri 解析 HTML 表格?

我正在尝试解析一个表,但我不知道如何从中保存数据。我想将每一行中的数据保存为:['Rawname1',2,094,0,017,0,098,0,113,0,452]示例表是:html=TablenameColumnname1Columnname2Columnname3Columnname4Columnname5Rawname12,0940,0170,0980,1130,452...Rawname52,0940,0170,0980,1130,452EOT我的爬虫代码是:doc=Nokogiri::HTML(open(html),nil,'UTF-8')tables=doc.css('div

ruby-on-rails - 编码::UndefinedConversionError: "\xE4"从 ASCII-8BIT 到 UTF-8

我试图获取这个CSV-File使用Net::HTTP。File.open(file,"w:UTF-8")do|f|content=Net::HTTP.get_response(URI.parse(url)).bodyf.write(content)end再次读取我的本地csv文件后,我得到了一些奇怪的输出。Nationalit\xE4t;Alter0-5我尝试将其编码为UTF-8,但出现错误Encoding::UndefinedConversionError:"\xE4"fromASCII-8BITtoUTF-8rchardetgem告诉我内容是ISO-8859-2。但转换为UTF-8

ruby - Jekyll - 生成 JSON 文件和 HTML 文件

我想让Jekyll为每个页面和帖子创建一个HTML文件和一个JSON文件。这是为了提供我的Jekyll博客的JSONAPI——例如可以在/posts/2012/01/01/my-post.html或/posts/2012/01/01/my-post.json访问帖子有谁知道是否有Jekyll插件,或者我将如何开始编写这样的插件来并排生成两组文件? 最佳答案 我也在寻找类似的东西,所以我学习了一些ruby​​并制作了一个脚本来生成Jekyll博客文章的JSON表示。我仍在努力,但大部分都在那里。我将其与Gruntjs、Sass、Bac

ruby - 将 HTML 转换为纯文本(包含 <br>s)

是否可以使用Nokogiri将HTML转换为纯文本?我还想包括标签。例如,给定这个HTML:alamakotaikottoidiota我想要这个输出:alamakotaikottoidiota当我调用Nokogiri::HTML(my_html).text它不包括标签:alamakotaikottoidiota 最佳答案 我没有编写复杂的正则表达式,而是使用了Nokogiri。工作解决方案(K.I.S.S!):defstrip_html(str)document=Nokogiri::HTML.parse(str)document.c

Ruby on Rails 上传文件问题 奇数 utf8 转换错误

我正在尝试上传文件,但出现以下错误:"\xFF"fromASCII-8BITtoUTF-8我非常关注Rails指南的工作。这是我正在使用的代码。file=params[:uploaded_file]File.open(Rails.root.join('public','images',file.original_filename),'w')do|f|f.write(file.read)end我不明白为什么它不起作用。我做错了什么?更新--这是应用程序跟踪app/controllers/shows_controller.rb:16:in`write'app/controllers/sho

ruby - 使用 Mechanize 读取本地 HTML 文件

我正在构建一个爬虫,我知道如何使用ruby​​mechanize使用以下代码从网上读取页面:require'mechanize'agent=Mechanize.newagent.get"http://google.com"但是我可以使用Mechanize从文件系统中读取HTML文件吗?怎么办? 最佳答案 仅使用file://协议(protocol)对我来说效果很好:html_dir=File.dirname(__FILE__)page=agent.get("file:///#{html_dir}/example-file.html"

ruby - 我如何使用 .html.erb 作为 Sinatra View 的文件扩展名?

如果我有以下Sinatra代码:get'/hi'doerb:helloend如果我有一个名为views/hello.erb的文件,这会很好用。但是,如果我有一个名为views/hello.html.erb的文件,Sinatra找不到该文件并给我一个错误。我如何告诉Sinatra我希望它查找.html.erb作为有效的.erb扩展名? 最佳答案 Sinatra使用Tilt呈现其模板,并将扩展与其相关联。您所要做的就是告诉Tilt它应该使用ERB来呈现该扩展:Tilt.registerTilt::ERBTemplate,'html.er

ruby-on-rails - 如何在 ruby​​ 中使用 utf8 的正则表达式

在RoR中,如何使用utf8代码验证中文或日文单词用于发布表单。在GBK编码中,它使用[\u4e00-\u9fa5]+来验证中文单词。在Php中,它使用/^[\x{4e00}-\x{9fa5}]+$/u用于utf-8页面。 最佳答案 Ruby1.8对UTF-8字符串的支持很差。您需要在正则表达式中单独编写字节,而不是完整的代码:>>"acentuação".scan(/\xC3\xA7/)=>["ç"]要匹配您指定的范围,表达式会变得有点复杂:/([\x4E-\x9E][\x00-\xFF])|(\x9F[\x00-\xA5])/#

ruby - 为什么 Ruby String#split 不将连续的尾随定界符视为单独的实体?

我正在读取一个政府文本文件,其中$用作分隔符,但我认为分隔符不重要...所以这是预期的:'a$b$c$d'.split('$')#=>["a","b","c","d"]在我正在处理的数据文件中,列标题行(第一行)被统一填充,即没有空标题,如:'a$b$$d'#or:'a$b$c$'但是,每行可能有连续的尾随分隔符,例如:"w$x$$\r\n"通常,我会阅读每一行并咀嚼。但这会导致String#split将最后两个定界符视为一列:"w$x$$\r\n".chomp.split('$')#=>["w","x"]不做chomp得到我想要的结果,虽然我应该chomp最后一个元素:"w$x$$\

ruby-on-rails - 从 HTML 页面中删除所有 JavaScript

我试过使用Sanitizegem清理包含网站HTML的字符串。它只删除了标记,而不是脚本标记内的JavaScript。我可以使用什么从页面中删除JavaScript? 最佳答案 require'open-uri'#includedwithRuby;onlyneededtoloadHTMLfromaURLrequire'nokogiri'#geminstallnokogirireadmoreathttp://nokogiri.orghtml=open('http://stackoverflow.com')#GettheHTMLsour